Werkzeugunterstützung für ETL-Prozesse mit Geodaten (Tool support for ETL processes with spatial data)
نویسندگان
چکیده
Data Warehousing and Spatial Data Infrastructures (SDI) are becoming more and more accepted in public administrations, also in environment administrations and geo data authorities. Hence, the importance of professional ETL (extract transform load) processes for data acquisition, integration, cleansing, and storage is also growing. Though there are numerous ETL tools on the market since many years, not many of them provide comfortable functionalities for dealing with geo data. Hence Disy evaluated a couple of widespread GeoETL tools (Talend Open Studio, FME, GeoKettle, Oracle Data Integrator) with respect to their suitability for professional and sustainable ETL projects in eGovernment SDI contexts. It turned out that Talend Open Studio is in general very favorable, but still has weaknesses regarding geo data integration (Spatial ETL). So, Disy has developed a new Talend plug-in for Spatial ETL – which is presented in this paper. Zusammenfassung Data Warehousing und Geodateninfrastrukturen (GDI) verbreiten sich auch in öffentlichen Verwaltungen zunehmend. Dadurch steigt in diesem Bereich auch die Bedeutung sog. ETLProzesse für Datenimport, Datenintegration, Datenbereinigung und Datenspeicherung. Es sind bereits viele ETL-Werkzeuge seit vielen Jahren auf dem Markt, aber nur wenige haben auch komfortable Funktionen zum Umgang mit Geodaten. Da Geodaten in Umweltanwendungen aber häufig eine wichtige Rolle spielen, hat Disy einige weitverbreitete GeoETL Werkzeuge mit Blick auf ihre Eignung für professionelle und nachhaltige ETL-Projekte in öffentlichen GDI-Kontexten untersucht und verglichen – nämlich Oracle Data Integrator, GeoKettle, FME und Talend Open Studio. Dabei wird Talend Open Studio als insgesamt sehr empfehlenswertes Tool für unsere Anforderungen identifiziert, das aber noch deutliche Schwächen im Bereich Geodaten aufweist. Daher hat Disy ein neues Plug-In entwickelt, die Geospatial Integration für Talend. Tagungsband UIS 2017 209 1 Motivation und Überblick Für Behörden und Unternehmen wird es immer wichtiger, die wachsende Menge an alphanumerischen Daten und Geodaten aus Fachanwendungen oder Sensoren für übergreifende Auswertungen, Datenportale und Berichtspflichten systematisch und möglichst automatisiert zu strukturieren und bereitzustellen. Für die Realisierung von Datenintegrationslösungen in der öffentlichen Verwaltung in Deutschland setzt Disy seit einigen Jahren bei der Verarbeitung alphanumerischer Daten auf die Software Talend. Talend ist einer der Weltmarktführer im Bereich der ETL-Werkzeuge und hat sich auf die Integration großer Datenmengen spezialisiert. In zahlreichen Projekten, gerade der Umweltverwaltung, spielen neben Sachdaten aber vor allem auch Geodaten eine entscheidende Rolle. Diese haben besondere Anforderungen, die bis dato in den meisten „klassischen“ ETL-Werkzeugen nur ansatzweise berücksichtigt sind. Dafür hat Disy gerade für die Geodatenverarbeitung in mehreren Projekten auch verschiedene andere Werkzeuge genutzt, wie z.B. insbesondere FME. Um herauszufinden, ob es für Datenintegrationsaufgaben, die einen gleichermaßen guten Umgang mit alphanumerischen und mit Geodaten erfordern, ein klar zu präferierendes Werkzeug gibt, hat Disy zunächst die weiter verbreiteten Lösungen gesichtet und dann anhand eines praxisgetriebenen Kriterienkatalogs die Werkzeuge verschiedene bewertet. Nach einer ersten Auswahlrunde konnte man sich aufgrund der Randbedingungen für die effektive und professionelle Nutzung in unseren Kundenprojekten auf die Werkzeuge Talend Open Studio und FME fokussieren. In einer weiteren, tiefergehenden Untersuchung wurden diese beiden Werkzeuge genauer „unter die Lupe“ genommen. Es zeigte sich, dass (1) zwar FME die mächtigere, umfangreichere und komfortablere Geodatenverarbeitung besitzt, dafür aber (2) Talend als Gesamtlösung aus unserer Sicht für viele unserer großen und lang laufenden Kundenprojekte vermutlich die nachhaltigere Lösung darstellt. Da hier aber klare Nachteile gegenüber FME vorliegen, hat Disy eine Erweiterung von Talend realisiert, die Geospatial Integration for Talend. Dieser Beitrag ist aufgebaut, wie folgt: In Kapitel 2 werden einige grundlegende Definitionen und Begriffe eingeführt. In Kapitel 3 wird die Vorgehensweise zur Identifikation eines geeigneten Werkzeugs vorgestellt. In Kapitel 4 werden die Tagungsband UIS 2017 210 Werkzeuge FME und Talend Open Studio eingehender untersucht und ein Zwischenfazit des Auswahlprozesses gezogen. Als Ergebnis wird die Realisierung der Geospatial Integration for Talend motiviert, welche in Kapitel 5 näher beschrieben wird. Kapitel 6 beendet den Beitrag mit Zusammenfassung und kleinem Ausblick. 2 Grundlagen Eine sehr kurze, aber im Kern für das Verständnis völlig ausreichende Definition eines Data Warehouse formuliert [Rahm 2015] wie folgt: Definition: Ein Data Warehouse (DW) ist eine für Analysezwecke optimierte zentrale Datenbank, die Daten aus mehreren, i.a. heterogenen Quellen zusammenführt und verdichtet (Integration und Transformation). Verschiedene Autoren ergänzen noch diverse technische und zweckorientierte Merkmale (siehe z.B. [Inmon 1996; Bauer & Günzel 2013; Kimball & Ross 2013; Zeh 2003] und die gute Zusammenfassung bei [Wikipedia-1 2017]). Wie sich schon aus der Bemerkung „Integration und Transformation“ als zentrale Aufgabe des DW ergibt, spielen die sog. ETL-Prozesse eine zentrale Rolle bei den Algorithmen für Aufbau und Betrieb eines DW. Wir folgen bei der Begriffsbildung hier [Hummeltenberg 2012]: Definition: ETL-Prozesse umfassen das Extrahieren, Transformieren und Laden von Daten aus einem oder mehreren Quellsystemen in einen Zieldatenbestand inkl. Data Cleansing. ETL-Systeme bilden beim Data Warehousing die Datenschnittstelle zwischen operativen / externen Datenbeständen und Data Warehouse / Data Marts. ... Bei einer materialisierten Datenextraktion, -integration und -aggregation wird zwischen den Phasen Extraktion, Transformation und Laden unterschieden und der Data Access und Integration Layer durch ETL-Systeme realisiert. Während die Datenextraktion und das Laden zwar technisch anspruchsvoll sein können (insbesondere bei sehr großen Datenbeständen und Datenbeständen mit hoher Änderungsrate bzw. Datenströmen), finden sich jedoch die konzeptionell schwierigeren Aufgaben im Allgemeinen bei der Transformation. Hier führt [Hummeltenberg 2012] z.B. folgende Teilschritte an: Tagungsband UIS 2017
منابع مشابه
Benchmarking ETL Workflows
Extraction–Transform–Load (ETL) processes comprise complex data workflows, which are responsible for the maintenance of a Data Warehouse. A plethora of ETL tools is currently available constituting a multi-million dollar market. Each ETL tool uses its own technique for the design and implementation of an ETL workflow, making the task of assessing ETL tools extremely difficult. In this paper, we...
متن کاملBenutzerorientierter Entwurf von unternehmensweiten Data-Warehouse- Systemen
Zusammenfassung: Der Beitrag beschreibt eine Entwurfsmethode für die DataWarehouse-Entwicklung. Als Bezugsrahmen dient dabei eine erweiterte DataWarehouse-Architektur und ein Verfahren zur Zerlegung des zu erstellenden Systems. Dies unterstützt die Definition von Ausbaustufen für ein inkrementelles Vorgehen. Für die einzelnen Inkremente werden ausgehend vom Informationsbedarf der Benutzer fachk...
متن کاملAutomating User-Centered Design of Data-Intensive Processes
Business Intelligence (BI) enables organizations to collect and analyze internal and external business data to generate knowledge and business value, and provide decision support at the strategic, tactical, and operational levels. The consolidation of data coming from many sources as a result of managerial and operational business processes, usually referred to as ExtractTransform-Load (ETL) is...
متن کاملETL Extract , Transform and Load ( ETL ) Performance Improved by Query Cache
Extraction, Transformation, and Loading (ETL) processes are responsible for the operations taking place in the back stage of a data warehouse architecture Extract, transform and load (ETL) is the core process of data integration and is typically associated with data warehousing. ETL tools extract data from a chosen source, transform it into new formats according to business rules, and then load...
متن کاملMAIME: A Maintenance Manager for ETL Processes
The proliferation of business intelligence applications moves most organizations into an era where data becomes an essential part of the success factors. More and more business focus has thus been added to the integration and processing of data in the enterprise environment. Developing and maintaining Extraction-Transform-Load (ETL) processes becomes critical in most data-driven organizations. ...
متن کامل